反事实风险最小化是通过记录数据组成的脱机策略优化的框架,该数据由上下文,动作,倾向得分和每个样本点的奖励组成。在这项工作中,我们以此框架为基础,并为未观察到某些样本的奖励的设置提出了一种学习方法,因此记录的数据由具有未知奖励的样本子集和具有已知奖励的样本子集。此设置在许多应用领域,包括广告和医疗保健。虽然某些样本缺少奖励反馈,但可以利用未知的奖励样本来最大程度地降低风险,我们将此设置称为半遇到事实风险的最小化。为了解决这种学习问题,我们在反相反分数估计器下的真实风险中得出了新的上限。然后,我们基于这些界限,提出了一种正规化的反事实风险最小化方法,该方法仅基于已记录的未知奖励数据集;因此,这是奖励独立的。我们还提出了另一种算法,该算法基于为已记录的未知奖励数据集生成伪奖励。神经网络和基准数据集的实验结果表明,除了已记录已知的奖励数据集外,这些算法可以利用已记录的未知奖励数据集。
translated by 谷歌翻译